Escuela de Negocios - Licenciatura en Tecnología Digital
En la última década, el análisis deportivo ha evolucionado hacia una perspectiva cada vez más matemática y sofisticada. Aplicaciones como el uso de análisis espacial en Basketball (Goldsberry, 2012) y la investigación estadística del Brentford con Smartodds son ejemplos claros de la tendencia creciente en este campo. El béisbol, por mucho tiempo el deporte preferido para la analítica, ha experimentado una profunda transformación con la implementación de Sabermetrics (Baumer, 2015). La introducción de herramientas analíticas avanzadas ha producido resultados positivos para muchos equipos, lo que resalta el valor de estudiar métricas específicas dentro de cada deporte.
Este desarrollo se centra en el fútbol, un deporte en el cual los análisis previos se han concentrado, en su mayoría, en predecir resultados de partidos y mejorar el rendimiento de los equipos. Sin embargo, este trabajo propone un enfoque diferente al analizar el impacto de los jugadores sobre la posesión de balón y los disparos del equipo desde una perspectiva probabilística.
A partir de la métrica PSL propuesta en el paper Soccer Networks (Huang et al., n.d.) planteamos un proceso para comparar el impacto que tienen los jugadores sobre la performance del equipo. Logramos formular una metodología para estudiar la distribución de la performance de un equipo. Luego, proponemos una serie de métodos y métricas para comparar el rendimiento de dos formaciones de jugadores. Además, desarrollamos una forma de representación vectorial (Embeddings) de los jugadores, llamada Player2Vec, un modelo de Machine Learning también basado sobre el modelo de redes de jugadores planteado en el mismo paper del PSL. Esto último permite desarrollar modelos predictivos sobre el rendimiento de los jugadores en un equipo. Nuestro modelo final logra predecir la performance de los jugadores un 58.99% mejor que asumir las distribuciones previas como priors.
Palabras Clave: Fútbol, Análisis de Datos, Machine Learning, Redes de Jugadores, Embeddings , Expected Goals, Cadenas de Markov
Este trabajo no hubiera sido posible sin la ayuda de los profesores Gustavo Vulcano (Escuela de Negocios, Universidad Torcuato Di Tella) y Santiago Gallino (The Wharton School, University of Pennsylvania). Además queremos agradecer a Ignacio Vigilante (TIC - Escuela ORT) y Tomás Spognardi (Exactas - UBA) por sus contribuciones al modelo de Player2Vec y al PSL Bayesiano respectivamente. Agradecemos también a nuestras familias, amigos, colegas y jefes por su apoyo y acompañamiento durante el transcurso de nuestras carreras universitarias.
A diferencia de otros deportes como el béisbol o el basketball, el fútbol ha sido tradicionalmente menos propenso a la aplicación de técnicas avanzadas de análisis de datos y aprendizaje automático. Sin embargo, en los últimos años ha habido un crecimiento significativo en el uso de herramientas analíticas para evaluar el rendimiento de los jugadores y los equipos.
En la última década el análisis del fútbol ha evolucionado hacia una perspectiva cada vez más matemática y sofisticada. El desarrollo que más impacto tuvo sin dudas es el de la métrica de Expected Goals (xG) (Green, 2012), que permiten evaluar la calidad de las oportunidades de gol de un equipo. El uso de xG en el análisis de partidos y jugadores ha permitido una mayor capacidad predictiva y una mejor comprensión del rendimiento de los equipos. La industria que mas potenció este cambio fue la de las apuestas deportivas, que comenzó a utilizar modelos predictivos para estimar las probabilidades de los partidos. La aparición de empresas como StatsBomb y Opta Sports son claros ejemplos de como la analítica de datos ha crecido en importancia en la industria del fútbol. Tanto es asi que el Arsenal y el Brentford de la Premier League poseen sus propias empresas de analítica de datos; StatDNA y Smartodds (Tippett, 2019, p. 37).
El trabajo en desarrollo Soccer Networks (Huang et al., n.d.) propone un modelo de red de jugadores para calcular la probabilidad de disparar al arco antes de perder el balón (PSL), una métrica poca estudiada. En el paper se demuestra que el PSL tiene una alta correlación con el rendimiento del equipo y una gran importancia al nivel del xG.
Este trabajo profundiza en el análisis de la métrica PSL y propone un análisis probabilístico sobre las componentes del modelo de redes de jugadores y su injerencia en el rendimiento de los jugadores y consecuentemente del equipo. Proponemos una metodología para comparar el rendimiento de jugadores y formaciones de jugadores en base a la métrica PSL. Finalmente, desarrollamos un modelo de representación vectorial de los jugadores, llamado Player2Vec, para poder utilizarlo en modelos predictivos sobre el rendimiento de los jugadores.
El fútbol es uno de los deportes más populares y seguidos en todo el mundo. La capacidad de un equipo para ganar partidos y campeonatos depende en gran medida de la calidad y el rendimiento de sus jugadores. En este contexto, la identificación y selección de los mejores jugadores para un equipo se convierte en una tarea crucial para entrenadores, directores deportivos y analistas de rendimiento.
Desde una perspectiva académica, el análisis del rendimiento de los jugadores de fútbol ha sido un área de interés creciente en los últimos años. La aplicación de técnicas avanzadas de análisis de datos, aprendizaje automático y modelos probabilísticos ha permitido una comprensión más profunda del impacto de los jugadores en el rendimiento del equipo. Algunos ejemplos del estado del arte incluyen el modelo para maximizar la posesión esperada propuesto en el artículo de (Rahimian et al., 2023) y el modelo de redes de jugadores para calcular la probabilidad de disparar al arco antes de perder el balón (PSL) presentado en el trabajo de (Huang et al., n.d.).
Este trabajo se enmarca en esta línea de investigación, contribuyendo al desarrollo de nuevas metodologías y herramientas para evaluar y comparar el rendimiento de los jugadores.
En el ámbito práctico, la capacidad de identificar a los mejores jugadores tiene implicaciones directas en la toma de decisiones estratégicas y operativas de los equipos de fútbol. La correcta selección de jugadores puede mejorar significativamente el rendimiento del equipo, aumentar las probabilidades de éxito en competiciones y optimizar la inversión en fichajes.
El Brentford FC es un caso de ejemplo del impacto positivo que puede tener el análisis de datos en el fútbol. El club implementó un enfoque basado estadística para la identificación y selección de jugadores con alto potencial de rendimiento. El equipo para el 2014/2015 había ascendido a la EFL Championship desde la Ligue One (Tercera División de Inglaterra) por primera vez en 21 años, y en 2021 ascendió a la Premier League luego de 74 años.
Mas recientemente, el caso de estudio sobre el Real Racing Club de Santander de la Segunda División B de España presentado por la Facultad de Ciencias Exactas y Naturales, UBA en la 33rd European Conference on Operational Research es un nuevo caso de aplicación de la analítica de datos en el fútbol (Brunetti et al., 2024). El estudio muestra con su investigación cómo integrar el proceso actual de scouting con un modelo de aprendizaje supervisado.
Partiendo de estos antecedentes, este trabajo busca proporcionar a los equipos de fútbol herramientas y metodologías para evaluar, comparar y seleccionar a los jugadores más adecuados para sus necesidades y estrategias específicas.
El objetivo principal de este proyecto es desarrollar y aplicar modelos avanzados de análisis de datos y probabilísticos, para mejorar la evaluación, comparación y selección de jugadores de fútbol. Esto permitirá a los equipos tomar decisiones más informadas y estratégicas, optimizando su rendimiento y aumentando sus probabilidades de éxito en competiciones. Más concretamente, este trabajo busca responder la pregunta del título “¿Cómo encontrar el mejor jugador para tu Equipo de Fútbol?”.
A partir de la pregunta de la investigación, se plantea el problema de encontrar el jugador ideal para un equipo de fútbol. En un comienzo nos encontramos planteando cómo definir la performance de un jugador y cómo compararla con otros jugadores. Surgió la necesidad de encontrar una métrica para evaluar el impacto de un jugador en el rendimiento de un equipo y cómo definir estos agentes. Además es necesario poder representar concretamente a un Jugador \(J\) de forma vectorial para poder utilizarlo en modelos predictivos.
En el paper en proceso Soccer Networks (Huang et al., n.d.) se plantea la descomposición del Gol Esperado (\(xG\)) como:
\[ xG(A) = P(A) \cdot PSL(A) \cdot SA(A) \]
Donde \(A\) es el equipo, \(P(A)\) es el número de posesiones del balón, \(PSL(A)\) es la probabilidad de patear al arco antes de perder el balón y \(SA(A)\) es la probabilidad de que un disparo al arco se convierta en gol. A diferencia de la posesión del balón y la probabilidad de convertir un disparo en gol, \(PSL(A)\) no es una métrica comúnmente utilizada en el análisis de fútbol ni existen modelos que la calculen. El paper Soccer Networks plantea un modelo de red de jugadores que permite calcular \(PSL(A)\) para cada equipo.
Utilizando Cadenas de Markov de Tiempo Continuo (CTMC) se puede calcular la probabilidad de que un equipo pierda el balón antes de patear al arco. En este modelo de red de jugadores se plantea un modelo de 14 estados: 11 jugadores (\(J_{1} \dots J_{11}\)), Ganancia, Pérdida y Disparo.
El grafo presentado en la figura \(\ref{fig:soccernetwork}\) representa el modelo de red de jugadores. Cada nodo representa un estado y cada arista representa una transición entre estados. El nodo verde representa el estado de disparo al arco, el rojo la pérdida del balón, el negro la ganancia del balón por parte del equipo y los azules a los jugadores. Los ejes entre los nodos se representan con una matriz de adyacencia \(R\) donde cada valor \(r(U, V)\) representa el ratio de transición entre los estados \(U\) y \(V\).
\[ R = \begin{pmatrix} 0 & r(G, J_{1}) & \dots & r(G, J_{11}) & 0 & 0 \\ 0 & 0 & \dots & r(J_{1}, J_{11}) & r(J_{1}, L) & r(J_{1}, S) \\ \vdots & \vdots & \ddots & \vdots & \vdots & \vdots \\ 0 & r(J_{11}, J_{1}) & \dots & 0 & r(J_{11}, L) & r(J_{11}, S) \\ 0 & 0 & \dots & 0 & 1 & 0 \\ 0 & 0 & \dots & 0 & 0 & 1 \\ \end{pmatrix} \]
Los ratios de transición posibles se calculan de la siguiente manera:
\[ \begin{aligned} r(G, J_{i}) &= \frac{\text{Ganancias de }J_{i}}{\text{Tiempo Jugado por }J_{i}} \\ r(J_{i}, S) &= \frac{\text{Disparos al arco de }J_{i}}{\text{Tiempo Jugado por }J_{i}} \\ r(J_{i}, S) &= \frac{\text{Disparos al arco de }J_{i}}{\text{Tiempo Jugado por }J_{i}} \\ r(J_{i}, J_{j}) &= \frac{\text{Pases de }J_{i} \text{ al jugador }J_{j}}{\text{Tiempo jugado entre }J_{i} \text{ y }J_{j}} \\ \end{aligned} \]
A partir de \(R\), la matriz de ratio de acción sobre tiempo jugado (ganancias, pases, disparos o pérdidas), se puede obtener la matriz de transición de estados \(Q\) al normalizar sus filas.
Para cada par de estados \(U\) y \(V\) se define \(q(U, V) = \frac{r(U, V)}{\sum_{i=1}^{14} r(U, i)}\)
\[ Q = \begin{pmatrix} 0 & q(G, J_{1}) & \dots & q(G, J_{11}) & 0 & 0 \\ 0 & 0 & \dots & q(J_{1}, J_{11}) & q(J_{1}, L) & q(J_{1}, S) \\ \vdots & \vdots & \ddots & \vdots & \vdots & \vdots \\ 0 & q(J_{11}, J_{1}) & \dots & 0 & q(J_{11}, L) & q(J_{11}, S) \\ 0 & 0 & \dots & 0 & 1 & 0 \\ 0 & 0 & \dots & 0 & 0 & 1 \\ \end{pmatrix} \]
Finalmente a partir de la matriz de probabilidades de transición \(Q\) se puede calcular \(PSL(A)\) como:
\[ PSL(A) = [1, 0, ..., 0] \cdot (I - T)^{-1} \cdot X \cdot [0, 1]^T \]
Siendo \(T\) las probabilidades de transición de los estados transitorios, \(X\) las probabilidades de transición de los estados transitorios a los estados absorbentes e \(I\) la matriz identidad (Ross, 2019).
A partir de este modelo en el paper Soccer Networks se evaluó para una temporada de la Premier League (EPL 2012/13) (Opta Data from Stats Perform, n.d.) la diferencia entre los PSL de cada equipo y luego de forma empírica se demuestra como el \(PSL(A)\) tiene alta correlación positiva con el rendimiento del equipo por sobre el contrincante. Finalmente hallamos una métrica significativa de rendimiento de un equipo en la métrica \(PSL\). Sin embargo, da a lugar a la investigación de cómo se puede aplicar esta métrica a nivel de jugador y cómo se puede comparar el rendimiento de jugadores en distintos equipos.
Para evaluar el impacto de un jugador \(J\) se debe conocer la probabilidad de transición entre \(J\) y los otros 13 estados (10 jugadores, Ganancia, Pérdida y Disparo), o bien lograr estimar la probabilidad de transición entre \(J\) y los otros 13 estados.
En este trabajo se propone un método probabilístico bayesiano para hallar la Distribución del PSL dada la distribución de probabilidades de transición entre cada uno de los 11 jugadores y los otros 13 estados.
En un comienzo se planteó desarrollar un modelo predictivo para estimar los ratios de transición entre los estados. Optamos por buscar predecir los ratios \(r\) y no las probabilidades de transición \(q\) ya que al normalizar los ratios de transición se pierde información sobre la cantidad de acciones de un jugador, por lo que las mismas posiciones de las matrices \(R\) y \(Q\) no son comparables. Más concretamente buscamos estimar la función \(f\) que mapea los estados \(U\) y \(V\) al ratio de transición \(r(U, V)\).
\[ \hat{r}(U, V) = f(U, V, \theta) \]
Comenzamos armando un modelo para predecir únicamente los ratios de pases \(r(J_i, J_j)\) entre un jugador \(J_i\) y otro jugador \(J_j\). Lo que correspondería a los siguientes valores de la matriz \(R\):
\[ R = \begin{pmatrix} 0 & r(G, J_1) & \dots & r(G, J_{11}) & 0 & 0 \\ 0 & \colorbox{yellow}{$0$} & \colorbox{yellow}{$\dots$} & \colorbox{yellow}{$r(J_1, J_{11})$} & r(J_1, L) & r(J_1, S) \\ \vdots & \colorbox{yellow}{$\vdots$} & \colorbox{yellow}{$\ddots$} & \colorbox{yellow}{$\vdots$} & \vdots & \vdots \\ 0 & \colorbox{yellow}{$r(J_{11}, J_1)$} & \colorbox{yellow}{$\dots$} & \colorbox{yellow}{$0$} & r(J_{11}, L) & r(J_{11}, S) \\ 0 & 0 & \dots & 0 & 1 & 0 \\ 0 & 0 & \dots & 0 & 0 & 1 \\ \end{pmatrix} \]
Para poder utilizar un modelo de machine learning tradicional necesitamos poder representar a cada jugador \(J\) de forma vectorial. Armamos un vector de métricas agregadas para un jugador al momento del partido a predecir. Estas métricas incluyen la cantidad de pases, disparos, goles, pérdidas, etc. sobre el total de tiempo jugado, además de el equipo en el que juega.
\[ J = [\text{Passes/90}, \text{Shots/90}, \text{Goals/90}, \text{Losses/90}, \text{Time Played}, \text{Team ID}] \]
Para el modelo predictivo comenzamos utilizando un modelo de XGBoost para la regresión (Chen & Guestrin, 2016) pero rápidamente observamos que por la naturaleza de árbol al predecir con la media de las observaciones por hoja las predicciones resultaban casi discretas, por lo que viramos a explorar un modelo mas sencillo de regresión lineal para predecir los ratios de pases entre jugadores.
Para validar elegimos separar de forma temporal los 380 partidos de la temporada 2012/13 de la EPL: los primeros 269 partidos de entrenamiento; los últimos 111 de test (\(\mu + 2/3 \sigma\)). Además para construir el dataset, elegimos agarrar parejas de jugadores de los partidos de Train y removerlos de los mismos para poder en Test predecir ratios de transición entre jugadores que no se vieron en Train.
Luego de entrenar el modelo, para cada instancia de test obtuvimos la matriz de ratios de transición \(R\) y calculamos el PSL real, para luego predecir la matriz de transición \(\hat{R}\) y calcular el PSL predicho. Finalmente calculamos el coeficiente de correlación de Pearson entre el PSL real y el PSL predicho.
En la figura \(\ref{fig:regresionlinealrp}\) podemos observar como a pesar de predecir muy pobre los ratios de transición al resultar en un coeficiente de correlación de Pearson entre los \(r(J_i, J_j)\) y los \(\hat{r}(J_i, J_j)\) de \(0.12\), sin embargo al comparar el PSL real del PSL calculado a partir de \(\hat{R}\) se obtiene un coeficiente de correlación de Pearson de \(0.85\).
El modelo planteado no es capaz de predecir los ratios de transición, y a pesar de que desarrollamos otros modelos como XGBoost para regresión, Redes Neuronales y Redes Neuronales Probabilísticas (PNNs) no es posible predecir los ratios de transición entre los estados a partir de las métricas de los jugadores. Se debe a que los ratios de transición pueden variar mucho entre partidos para un mismo jugador. Para entender mejor el efecto de estos ratios, decidimos observar como cada ratio de transición afecta al PSL.
Para entender mejor la relación entre los ratios de transición y el PSL, se implementó el modelo en una librería de auto-diferenciación (pytorch) y se obtuvo el gradiente de PSL empíricamente respecto a los ratios de transición. Esto nos permitió entender qué estados tienen mayor influencia en la métrica que estamos analizando. Pudimos observar que las transiciones de Jugador a Shot son las que más inciden sobre el PSL, seguido por las transiciones entre jugadores, tal como se observa en la figura \(\ref{fig:pslgradient}\).
Luego de lo observado con el Test de Sensibilidad sobre PSL, decidimos cambiar el enfoque de la predicción de los ratios de transición entre jugadores a la predicción de los ratios de transición entre jugadores y el estado de disparo al arco. Esto se debe a que al observar la matriz de ratios de transición \(R\) se observa que los ratios de transición entre jugadores y el estado de disparo al arco son los que más afectan al PSL.
El nuevo modelo se enfoca en la siguiente sección de la matriz \(R\):
\[ R = \begin{pmatrix} 0 & r(G, J_{1}) & \dots & r(G, J_{11}) & 0 & 0 \\ 0 & 0 & \dots & r(J_{1}, J_{11}) & r(J_{1}, L) & \colorbox{yellow}{$r(J_{1}, S)$} \\ \vdots & \vdots & \ddots & \vdots & \vdots & \colorbox{yellow}{$\vdots$} \\ 0 & r(J_{11}, J_{1}) & \dots & 0 & r(J_{11}, L) & \colorbox{yellow}{$r(J_{11}, S)$} \\ 0 & 0 & \dots & 0 & 1 & 0 \\ 0 & 0 & \dots & 0 & 0 & 1 \\ \end{pmatrix} \]
Para el vector de los jugadores \(J\) se agregó también la posición en la que juega (Arquero G por Goalkeeper, Defensor D por Defender, Mediocampista M por Midfielder, Delantero F por Forward) one-hot-encoded.
Luego se entrenó un modelo de XGBoost para Regresión con el mismo split de Train y Test. Se logró obtener un mejor resultado sobre las predicciones de Train en comparación al modelo anterior. Se obtuvo un coeficiente de correlación de Pearson de \(0.95\) entre los \(r(J_i, S)\) y los \(\hat{r}(J_i, S)\) en Train, pero de \(0.08\) en Test.
Este resultado junto al del modelo de predicción de ratios de pases nos llevó a buscar una mejor representación vectorial de los jugadores. En la Sección \(\ref{player2vec}\) Player2Vec se explica el modelo utilizado para obtener un vector de representación (embedding E) de cada jugador. Con este embedding de input modelamos la función como una red neuronal, para obtener un modelo resultante \(f (E(J) , \text{partido})\) que dado el embedding de los jugadores y el partido, predice los ratios de transición entre jugadores y el estado de disparo al arco.
En un esfuerzo de comprender mejor el modelo de ratios de transición entre jugadores y el estado de disparo al arco, se decidió analizar las distribuciones de los \(r(J, S)\) para cada jugador en la temporada 2012/13 de la EPL.
Se observó que las distribuciones de los ratios de transición entre jugadores y el estado de disparo al arco tienen moda cercana a 0, lo que indica que la mayoría de los jugadores tienen una baja probabilidad de disparar al arco antes de perder el balón. En la siguiente figura se puede observar la distribución de los \(r(J, S)\) para todos los jugadores de la temporada 2012/13 de la EPL en todos los partidos.
Además, se observó que la distribución de los \(r(J, S)\) de cada jugador no necesariamente sigue una distribución normal ni similar a la de otros jugadores. Para el siguiente análisis se ajustaron las distribuciones de los \(r(J, S)\) de cada jugador a una distribución de probabilidad beta y se obtuvieron los parámetros \(\alpha\) y \(\beta\) de cada jugador. Inicialmente presentamos la distribución de dos jugadores a modo de ejemplo: Sergio Agüero y Robin van Persie
Luego se analizó la distribución de los \(r(J, S)\) de los 10 jugadores con mayor cantidad de disparos, con mayor sesgo y con mayor suma de disparos a modo de comparación. En el anexo se presentan gráficos correspondientes junto a otras distribuciones pertinentes, ver figuras \(\ref{fig:Top10bycountsplayersshotsprobbetabinomial}\), \(\ref{fig:Top10byskewplayersshotsprobbetabinomial}\), \(\ref{fig:Top20Forwardsbyskewplayersshotsprobbetabinomial}\), \(\ref{fig:Top10bysumplayersshotsprobbetabinomial}\)
A partir de la distribución ajustada de un jugador, podemos hallar jugadores similares en base a la distribución de los \(r(J, S)\) utilizando la divergencia de Kullback-Leibler (KL) (Kullback & Leibler, 1951). La divergencia KL es una medida de la diferencia entre dos distribuciones de probabilidad. Para dos distribuciones de probabilidad \(P\) y \(Q\), la divergencia KL se define como:
\[ D_{KL}(P||Q) = \sum_{i} P(i) \log \left( \frac{P(i)}{Q(i)} \right) \]
En la figura \(\ref{fig:SimilartoSergioAgueroshotsprobbetabinomial}\) se observa la distribución de los \(r(J, S)\) de jugadores similares a él en la temporada 2012/13 de la EPL. Además se presentan solapados en la figura \(\ref{fig:SergioAgueroandsimilarplayersshotsprobbetabinomial}\).
Finalmente podemos agregar la condición de misma posición al comparar dos jugadores, en el caso de Agüero de Delantero (F por Forward) y hallar nuevamente jugadores aún más similares a él.
Para conocer mejor la varianza de las distribuciones de los \(r(J, S)\) de los jugadores, se estudió la distribución de los parámetros \(\alpha\) y \(\beta\) de las distribuciones beta ajustadas. Hicimos un análisis de clustering para agrupar a los jugadores en base a sus distribuciones de los \(r(J, S)\).
Como un extra, este sistema de clustering nos permite hallar rápido jugadores similares entre sí. A partir de los clusters la siguiente figura presenta las posibles distribuciones en cada cluster.
A partir de los resultados obtenidos en el análisis de las distribuciones de los \(r(J, S)\), se propone un utilizar estas como priors para cada jugador, es decir, se asume que la distribución de los \(r(J, S)\) de un jugador es la distribución a-priori de la variable aleatoria \(r(J, S)\) para ese jugador, lo mismo para los \(r(J_i, J_j)\), los \(r(J, L)\) y los \(r(J, G)\).
De esta forma, cada jugador \(J\) tiene una distribución a-priori para cada uno de los 14 estados. Considerando esto, podemos reformular la matriz de ratios de transición como una matriz de variables aleatorias donde cada una se distribuye según la distribución a-priori del jugador correspondiente.
Para actualizar la notación, sean \(r_{J, V}\) la variable aleatoria que representa el ratio de transición entre el jugador \(J\) y el estado \(V\), esto incluye \(r_{J, S}\), \(r_{J, L}\) y también \(r_{G, J}\), asi como los \(r_{J_i, J_j}\) para \(i, j \in [1, 11]\).
Luego \(r_{J, V} \sim F_x\) la distribución a-priori de la variable aleatoria \(r_{J, V}\).
Para generalizar el análisis de distribuciones planteadas en la sección anterior, se propone utilizar una distribución KDE (Kernel Density Estimation) a partir de los histogramas de los \(r(J, V)\) para modelar sus distribuciones, ya que no todos los ratios de transición siguen una distribución beta tan bien como los \(r(J, S)\).
Finalmente obtenemos, para una formación dada de 11 jugadores, una matriz de variables aleatorias \(\mathbf{R}\).
\[ \mathbf{R} = \begin{pmatrix} 0 & r_{G, J_1} & \dots & r_{G, J_{11}} & 0 & 0 \\ 0 & 0 & \dots & r_{J_1, J_{11}} & r_{J_1, L} & r_{J_1, S} \\ \vdots & \vdots & \ddots & \vdots & \vdots & \vdots \\ 0 & r_{J_{11}, J_1} & \dots & 0 & r_{J_{11}, L} & r_{J_{11}, S} \\ 0 & 0 & \dots & 0 & 1 & 0 \\ 0 & 0 & \dots & 0 & 0 & 1 \\ \end{pmatrix} \]
Para mejor claridad, la siguiente visualización muestra la matriz de variables aleatorias \(\mathbf{R}\) para un equipo de ejemplo. En cada posición se observa la distribución a-priori de la variable aleatoria correspondiente.
Dado un equipo \(A\) con una formación de 11 jugadores \(L_{A}\), se busca estimar la distribución del PSL de ese equipo a partir de las distribuciones a-priori de los \(r(U, V)\) de cada jugador. Para ello, se propone un método de Monte Carlo para muestrear de las distribuciones a-priori de los \(r(U, V)\) y estimar con ellas la distribución del PSL del equipo \(A\).
De la formación \(L_{A}\) podemos construir la matriz de variables aleatorias \(\mathbf{R}\) a partir de las distribuciones a-priori de los \(r(U, V)\) de cada jugador.
Definimos \(\hat{f}^{N}_{PSL}(L_{A})\) como la función distribución de probabilidad empírica de los \(PSL_i\) para la formación \(L_{A}\) en base a \(N\) simulaciones.
El proceso de Monte Carlo para estimar la distribución del PSL de la formación \(L_{A}\) es el siguiente:
A partir de esta distribución del PSL, se puede realizar comparaciones entre diferentes formaciones de 11 jugadores.
El siguiente gráfico en la figura \(\ref{fig:SergioAgueroPSLDistribution}\) muestra la distribución del PSL de una formacíon de ejemplo obtenida a partir de 1000 simulaciones del proceso de Monte Carlo para la formación más utilizada en la temporada 2012/13 de la EPL del equipo Manchester City (10 Jugadores del MCI + Sergio Agüero usado como ejemplo).
Para comparar el PSL de dos jugadores en una formación, se propone un análisis que consiste en evaluar el impacto en la distribución del PSL al reemplazar a un jugador por otro en la formación. El proceso para ello es el siguiente:
Se define la Formación \(L_{A}\) = \(\{J_1, J_2, \dots, J_{11}\}\) como la formación original del equipo \(A\), donde alguno de los jugadores \(J_i\) es el jugador a “original”.
Se define el jugador \(J'\) a comparar con \(J_i\) y la formación \(L'_A\) = \(\{J_1, J_2, \dots, J_{11}\}\) como la formación con el jugador \(J'\) en lugar de \(J_i\).
Luego, se puede computar \(\hat{f}^{N}_{PSL}(L_{A})\) y \(\hat{f}^{N}_{PSL}(L'_A)\) para comparar las distribuciones del PSL de las formaciones \(L_{A}\) y \(L'_A\).
En la siguiente sección postulamos una serie de métodos y métricas para comparar distribuciones de PSL de dos formaciones. En orden creciente de complejidad y rigurosidad, proponemos:
Para explicar la comparación de distribuciones de PSL, se propone un ejemplo de dos formaciones de 11 jugadores distintas, en una formación \(L_{MC}\) se encuentran 10 jugadores del equipo Manchester City (MCI) + Sergio Agüero delantero del mismo equipo y en la otra \(L_{MC}^{\text{Giroud}}\) los mismos 10 jugadores del MCI + Olivier Giroud delantero del equipo Arsenal.
Se realizó el proceso de Monte Carlo para estimar la distribución del PSL de cada formación a partir de 1000 simulaciones. Luego en la figura \(\ref{fig:PSLDistsAgueroVGiroud}\) se puede observar las funciones de densidad de probabilidad aproximadas de las distribuciones del PSL de las formaciones \(\hat{f}^{1000}_{PSL}(L_{MC})\) y \(\hat{f}^{1000}_{PSL}(L_{MC}^{\text{Giroud}})\).
Una posible comparación entre las distribuciones de PSL de dos formaciones es “a ojo” observando las funciones de densidad de probabilidad. En este caso puntual se puede observar como el equipo con Agüero tiene una distribución de PSL más desplazada a izquierda que el equipo con Giroud.
En un enfoque más numérico, se puede realizar una comparación por momentos de las distribuciones de PSL de dos formaciones. Se propone comparar la media y la varianza de las distribuciones \(\hat{f}^{1000}_{PSL}(L_{MC})\) y \(\hat{f}^{1000}_{PSL}(L_{MC}^{\text{Giroud}})\) ya que el método de Monte Carlo nos permite obtener una muestra significativa de las distribuciones. Al no ser distribuciones normales, la skewness y la kurtosis nos proveen información adicional sobre la forma de la distribución.
Para este caso de ejemplo, se observa que la media y la varianza de las distribuciones de PSL de la formación \(L_{MC}\) y \(L_{MC}^{\text{Giroud}}\) son similares, aunque mayores en la formación con Giroud. Además, el tercer momento (skewness) nos confirma lo observado “a ojo” en las funciones de densidad de probabilidad, la distribución de PSL de la formación con Agüero es más sesgada a la izquierda que la de la formación con Giroud. Por último el cuarto momento (kurtosis) nos indica que la \(\hat{f}^{1000}_{PSL}(L_{MC}^{\text{Giroud}})\) tiene colas más pesadas que la \(\hat{f}^{1000}_{PSL}(L_{MC})\).
Otra forma de comparar las distribuciones de PSL de dos formaciones es a través de la dominancia probabilística.
En este caso, se puede calcular la probabilidad de que una muestra aleatoria de una distribución sea mayor que una muestra aleatoria de la otra distribución. De esta forma podemos tomar samples de las distribuciones \(\hat{f}^{1000}_{PSL}(L_{MC})\) y \(\hat{f}^{1000}_{PSL}(L_{MC}^{\text{Giroud}})\) y calcular la probabilidad de que un sample de la formación con Giroud sea mayor que un sample de la formación con Agüero.
Sean \(X_{L_{MC}} \sim \hat{f}^{1000}_{PSL}(L_{MC})\) y \(X_{L_{MC}^{\text{Giroud}}} \sim \hat{f}^{1000}_{PSL}(L_{MC}^{\text{Giroud}})\) las variables aleatorias que se distribuyen según las distribuciones de PSL de las formaciones \(L_{MC}\) y \(L_{MC}^{\text{Giroud}}\) respectivamente. Luego para evaluar si la formación con Giroud tiene dominancia probabilística sobre la formación con Agüero, se puede calcular la probabilidad \(P(X_{L_{MC}^{\text{Giroud}}}>X_{L_{MC}})\).
El algoritmo para calcular la dominancia probabilística es el siguiente:
Para el caso de ejemplo, se obtuvo que la probabilidad de que un sample de PSL de la formación con Giroud sea mayor que un sample de PSL de la formación con Agüero es \(P(X_{L_{MC}^{\text{Giroud}}}>X_{L_{MC}}) \approx 0.5423\). De esta forma podemos concluir que la formación con Giroud tiene dominancia probabilística sobre la formación con Agüero.
Otra forma de comparar las distribuciones de PSL de dos formaciones es a través de las funciones de distribución acumulada (CDF). Llamemos \(\hat{F}^{N}_{PSL}(L)\) a la función de distribución acumulada de PSL obtenida a partir de \(N\) simulaciones del proceso de Monte Carlo para la formación \(L\).
En la siguiente figura se observa la comparación de las CDFs de las distribuciones de PSL de las formaciones \(L_{MC}\) y \(L_{MC}^{\text{Giroud}}\).
Nuevamente “a ojo” se puede analizar la relación entre las distribuciones \(\hat{F}^{1000}_{PSL}(L_{MC})\) y \(\hat{F}^{1000}_{PSL}(L_{MC}^{\text{Giroud}})\), en este caso podemos ver como la CDF de la formación con Agüero es menor a la de la formación con Giroud en la mayoría de los puntos, lo que indica que la formación con Agüero tiene un PSL menor que la formación con Giroud en la mayoría de los casos.
Más formalmente se puede evaluar la dominancia estocástica entre las CDFs \(\hat{F}^{1000}_{PSL}(L_{MC})\) y \(\hat{F}^{1000}_{PSL}(L_{MC}^{\text{Giroud}})\). La dominancia estocástica es una relación de orden entre dos funciones de distribución acumulada que indica si una distribución es mayor que la otra en todos los puntos.
Especificamente, podemos ver que a partir del umbral resaltado en verde en la figura \(\ref{fig:SergioAgueroOlivierGiroudCdfIntersection}\) (\(x = 0.05346757\)), \(\hat{F}^{1000}_{PSL}(L_{MC}^{\text{Giroud}})\) tiene dominancia estocástica parcial sobre \(\hat{F}^{1000}_{PSL}(L_{MC})\) (Bawa, 1982; Vulcano, n.d.).
Dependiendo el grado de rigurosidad provista por una comparación previa, recomendamos contemplar alguno de los consecuentes métodos presentados para comparar distribuciones de PSL. En este caso de ejemplo, se observó que la formación con Giroud tiene dominancia probabilística sobre la formación con Agüero aunque no se puede afirmar que tiene dominancia estocástica.
La comparación por momentos es una forma rápida y sencilla de comparar distribuciones de PSL, sin embargo, no siempre refleja la relación entre las distribuciones. La dominancia probabilística es una métrica intuitiva que nos permite evaluar la probabilidad de que una muestra de una distribución sea mayor que una muestra de la otra distribución. Por último, la dominancia estocástica es una relación de orden más rigurosa que nos permite evaluar si una distribución es mayor que la otra en todos los puntos.
El campo de estudio sobre la Dominancia Estocástica es amplio y complejo, en esta investigación se presentó una humilde introducción al tema y se propuso un método para evaluar la dominancia, por lo que se recomienda profundizar en el tema para una mejor comprensión a la hora de tomar decisiones basado en comparación de CDFs. Recomendamos la publicación “Stochastic Dominance: A Research Bibliography” (Bawa, 1982) que contiene alrededor de 400 referencias sobre el tema.
Para poder representar a cada jugador de forma vectorial, se desarrolló el modelo de Player2Vec que permite obtener un embedding de cada jugador en un espacio de \(n\) dimensiones.
Un embedding es una representación numérica de objetos en un espacio de \(n\) dimensiones, donde propiedades o relaciones similares del dominio de los objetos se preservan en el espacio vectorial. En el contexto de jugadores, un embedding transforma las características de cada jugador en un vector, de tal manera que jugadores con comportamientos o atributos similares estén más cerca en este espacio vectorial. Esto facilita que modelos como redes neuronales aprendan patrones complejos a partir de estas representaciones compactas.
Player2Vec es un modelo para representar jugadores de fútbol en un espacio vectorial. Este modelo hace uso de Node2Vec, que es en sí una adaptación de Word2Vec, una técnica de NLP que permite representar palabras en un espacio vectorial (Grover & Leskovec, 2016; Mikolov et al., 2013).
Node2Vec es un algoritmo que aprende representaciones vectoriales (embeddings) para nodos en un grafo, preservando tanto las relaciones locales como las globales entre ellos. Utiliza técnicas de random walks para capturar el contexto de cada nodo, balanceando entre explorar nodos cercanos y lejanos. Estos embeddings son útiles para tareas de machine learning sobre grafos, ya que capturan de forma eficiente las interacciones entre nodos en el grafo.
En este caso, los nodos del grafo representan jugadores, y las aristas entre ellos reflejan la interacción entre los jugadores en partidos de fútbol. A partir de los datos de eventos de partidos (pases, disparos, goles, etc.), se construye un grafo donde los nodos son jugadores y las aristas representan la frecuencia de interacción entre ellos.
A partir de una formación de 11 (Lineup), para un equipo (Team), en un partido (Match), se construye el grafo de la red de jugadores. Llamemos a estos \(G_{L, T, M}\) Grafo de Lineup.
Sean:
\[ \begin{aligned} G_{L, T, M} &= (V^{L, T, M}, E^{L, T, M}) \\ L &= \text{Número de Lineup del equipo en el partido} \\ T &= \text{Número de Equipo} \\ M &= \text{Número de Partido} \\ V^{L, T, M} &= \{\text{Gain}^{L, T, M}, J_1^{L, T, M}, J_2^{L, T, M}, \dots, J_{11}^{L, T, M}, \text{Loss}^{L, T, M}, \text{Shot}^{L, T, M}\} \\ E^{L, T, M} &= \{(J_i^{L, T, M}, J_j^{L, T, M}, r(J_i^{L, T, M}, J_j^{L, T, M})) \mid i, j \in [1, 11]\} \\ & \cup \{(\text{Gain}^{L, T, M}, J_i^{L, T, M}, r(\text{Gain}^{L, T, M}, J_i^{L, T, M})) \mid i \in [1, 11]\} \\ & \cup \{(J_i^{L, T, M}, \text{Shot}^{L, T, M}, r(J_i^{L, T, M}, \text{Shot}^{L, T, M})) \mid i \in [1, 11]\} \\ & \cup \{(J_i^{L, T, M}, \text{Loss}^{L, T, M}, r(J_i^{L, T, M}, \text{Loss}^{L, T, M})) \mid i \in [1, 11]\} \end{aligned} \]
Donde cada \(J_i^{L, T, M} \mid i \in [1, 11]\) es un nodo que representa a un jugador en el lineup \(L\) del equipo \(T\) en el partido \(M\). \(Gain^{L, T, M}\) es el nodo que representa la ganancia del balón, \(Loss^{L, T, M}\) la pérdida del balón y \(Shot^{L, T, M}\) el disparo al arco en el lineup \(L\) del equipo \(T\) en el partido \(M\).
En la figura \(\ref{fig:GLTM}\) se visualiza un ejemplo de un grafo de lineup \(G^{L, T, M}\) genérico con los ejes \(r(J_1^{L, T, M}, U)\) resaltados.
Luego sean \(J_i \mid i \in [0, 521]\) los jugadores reales de la temporada 2012/13 de la EPL
Se construye el grafo de la red de jugadores \(G_{\text{EPL-12/13}}\) como la unión de todos los grafos de lineup \(G^{L, T, M}\).
\[ \begin{aligned} G_{\text{Full}} &= (V, E) = \bigcup_{L, T, M} G^{L, T, M} \\ V &= \{J_1, J_2, \dots, J_{521}, Gain, Loss, Shot\} \\ & \cup \bigcup_{L, T, M} \{J_1^{L, T, M}, J_2^{L, T, M}, \dots, J_{11}^{L, T, M}, G^{L, T, M}, L^{L, T, M}, S^{L, T, M}\} \\ E &= \bigcup_{L, T, M} E^{L, T, M} \\ & \cup \{(J_i, J_j^{L, T, M}, r(J_i, J_j^{L, T, M})) \mid i \in [0, 521], j \in [1, 11], L, T, M\} \\ & \cup \{(Gain, Gain^{L, T, M}, 1) \mid L, T, M\} \\ & \cup \{(Loss^{L, T, M}, Loss, 1) \mid L, T, M\} \\ & \cup \{(Shot^{L, T, M}, Shot, 1) \mid L, T, M\} \end{aligned} \]
El ratio de transición \(r(J_i, J_i^{L, T, M})\) es el tiempo jugado por el Jugador \(J_i\) en el lineup \(L\) del equipo \(T\) en el partido \(M\) sobre el tiempo total jugado por el Jugador \(J_i\)
\[ r(J_i, J_i^{L, T, M}) = \frac{\text{Time Played}_{J_i^{L, T, M}}}{\text{Time Played}_{J_i}} \]
La siguiente figura (\(\ref{fig:GTM}\)) es una visualización de una instancia de un Equipo en un Partido con sus lineups. En este caso el equipo hizo dos cambios en el partido (\(J_4\) por \(J_{12}\) y \(J_2\) por \(J_{13}\)). Se puede observar como los jugadores reales \(J_4\) y \(J_{12}\) se encuentran representados por el mismo nodo \(J_4^{L, T, M}\) y lo mismo para \(J_2\) y \(J_{13}\) con \(J_2^{L, T, M}\) para sus respectivos lineups. El resto de los nodos de jugadores reales mantienen su identidad en los grafos de lineups.
El grafo resultante de la composición de todos los grafos de lineup \(G_{\text{Full}}\) se puede comprender mejor en la visualización presente en la figura \(\ref{fig:GEPL1213}\), donde al igual que en la figura anterior (\(\ref{fig:GLTM}\)), los nodos de jugadores reales se encuentran representados por los nodos de los lineups en los que participaron.